EPL 데이터 분석 및 클러스터링

데이터 : 2020 epl game data

데이터 전처리

데이터 용어

  1. xG : Expected Goals, 골 기댓값, 기대 득점, 슛이 득점으로 연결될 확률
  2. xGA : Expected Goals Against, 실점 기댓값, 기대 실점
  3. NPxG : 페널티 킥을 제외한 xG, 모든 공격수를 공평하게 평가할 수 있다.
  4. NPxGA : 페널티 킬을 제외한 xGA
  5. deep : Number of plays in opponent final third, 파이널 서드 지역에서의 기회
  6. deep_allowed : Number of plays allowed in final third
  7. scored : goals scored 득점
  8. missed : goals conceded 실점
  9. xPts : 기대 승점
  10. ppda_cal : 압박 플레이를 한 정도
  11. allowed_ppda : 압박 플레이를 당한 정도
  12. tot_goal : 지금까지 팀이 득점한 총 골수
  13. tot_con : 지금까지 팀이 실점한 총 골수
  14. HS.x : Home team shots
  15. HST.x : Home shots on target
  16. HF.x Home fouls
  17. HC.x :Home corners
  18. HY.x : Home yellow card
  19. HR.x : Home red card
  20. AS.x : Away shots
  21. AST.x : Away shots on target
  22. AF.x :Away fouls
  23. AC.x : Away corners
  24. AY.x : Away yellow card
  25. AR.x : Away red card
  26. HtrgPerc : Shot on target/total shots - Home
  27. AtrgPerc : Shot on target/total shots - Away

표준화

PCA(Principal Comeponent Analysis, 주성분 분석)

차원 축소 기법 중 하나로 Column의 갯수가 많을 때 Dimension을 낮추는 역할을 한다.

Scree plot을 기준으로 급격한 기울기로 꺾이는 지점을 elbow point라고 하며 이 때의 군집 수를 사용

Result

참고 자료 및 출처

참고 자료 : https://western-sky.tistory.com/42?category=847897 데이터 : https://www.kaggle.com/datasets/idoyo92/epl-stats-20192020